Selection Bias Correction in Supervised Learning with Importance Weight. (L'apprentissage des modèles graphiques probabilistes et la correction de biais sélection)
نویسنده
چکیده
In the theory of supervised learning, the identical assumption, i.e. the training and the test samples are drawn from the same probability distribution, plays a crucial role. Unfortunately, this essential assumption is often violated in the presence of selection bias. Under such condition, the standard supervised learning frameworks may suffer a significant bias. In this thesis, we use the importance weighting method to address the selection bias problem in supervised learning. We first introduce the supervised learning frameworks and discuss the importance of the identical assumption. We then study the importance weighting framework for the generative and the discriminative learning under a general selection scheme and investigate the potential of Bayesian Network to encode a priori assumptions about the relationships between the variables in study, including the selection variable, and to infer the independence and the conditional independence relationships that allow the selection bias to be corrected. We pay special attention to covariate shift, i.e. a special class of selection bias where the conditional distribution, P (y|x), of the training and of the test data are the same. We propose two methods to improve the importance weighting for covariate shift. We first show that the unweighted model is locally less biased than the weighted one on the low importance instances, and then propose a method that combines them in order to improve the predictive performance in the target domain. Finally, we investigate the relationship between the covariate shift and the missing data problem for data sets with small sample sizes and study a method that uses missing data imputation techniques to correct the covariate shift in some simple but realistic scenarios.
منابع مشابه
Sélection de modèles et sélection d’estimateurs pour l’Apprentissage statistique (Cours Peccot) Premier cours: Apprentissage statistique et sélection d’estimateurs
1. Le problème de l’apprentissage statistique 2 1.1. Cadre général 2 1.2. Exemple : prédiction 2 1.3. Exemple : régression 2 1.4. Exemple alternatif : régression sur un plan d’expérience fixe 3 1.5. Autres exemples 4 2. Estimateurs 4 2.1. Définition générale 4 2.2. Consistance, No Free Lunch 5 2.3. Exemples : Estimateurs par minimum de contraste 5 2.4. Exemple : Estimateurs des moindres carrés ...
متن کاملUne méthode de classification supervisée sans paramètre pour l'apprentissage sur les grandes bases de données
Résumé. Dans ce papier, nous présentons une méthode de classification supervisée sans paramètre permettant d’attaquer les grandes volumétries. La méthode est basée sur des estimateurs de densités univariés optimaux au sens de Bayes, sur un classifieur Bayesien naïf amélioré par une sélection de variables et un moyennage de modèles exploitant un lissage logarithmique de la distribution a posteri...
متن کاملAméliorer les performances d'un modèle prédictif: perspectives et réalité
Résumé. Dans cet article, nous montrons que les performances d’un modèle prédictif dépendent généralement plus de la qualité des données et du soin apporté à leur préparation et à leur sélection, que de la technique de modélisation elle-même. Entre deux techniques, l’écart de performance est souvent négligeable en regard des incertitudes résultant de la définition de la variable à expliquer et ...
متن کاملSélection des variables informatives pour l'apprentissage supervisé multi-tables
Résumé. Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent...
متن کاملVers une utilisation améliorée de relations spatiales pour l'apprentissage de données dans les modèles graphiques
Résumé. Nous nous intéressons dans cet article aux représentations des relations spatiales pour l’extraction d’information et la modélisation des données visuelles, en particulier dans le contexte de la catégorisation d’images. Nous montrons comment la prise en compte d’une relation spatiale entre deux éléments entraîne l’apparition d’une information supplémentaire entre ces éléments et le rest...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2017